#############################################################
# Código para extração de tabelas das probabilidades preditas
# dos modelos multinomiais
# Autoria: Leonardo Rodrigues
# Código escrito e executado no RStudio (Version 1.3.1073)
#############################################################

### 1 Preparação ----
# Leitura dos pacotes
library(haven)
library(tidyverse)
library(ggthemes)
library("gt")
library(ggplot2)
library(directlabels)
library(ggrepel)
library(scales)
library(readr)
library(sitools)
library(webshot)
library(dplyr)
library(stringr)
library(tidyr)
library(tools)
library(summarytools)

#leitura dos bancos
pps1 <- read.table("data/output/ppsinternaciclo1.txt", sep="\t")
pps2 <- read.table("data/output/ppsinternaciclo2.txt", sep="\t")
ppslogit <- read.table("data/output/ppslogit.txt", sep="\t")

### 2 Organizando as tabelas dos modelos ----
#Quadro dos Anexos 
pps1 %>%
  mutate(cor = case_when(
    cor == "Branca" ~ "Branca",
    cor == "Não-Branca" ~ "Negra")) %>%
  select(sexo,edu,cor,pred.prob.Engenharias,pred.prob.Bacharelados,
                pred.prob.Direito,pred.prob.Licenciaturas,pred.prob.Medicina,
                pred.prob.Tecnólogos) %>%
  rename("Engenharias" = pred.prob.Engenharias, "Bacharelados" = pred.prob.Bacharelados,
        "Direito" = pred.prob.Direito, "Licenciaturas" = pred.prob.Licenciaturas, "Medicina" = pred.prob.Medicina,
         "Tecnólogos" = pred.prob.Tecnólogos) %>%
  gt(rowname_col = "diploma") %>%
  tab_stubhead(label = "Variável") %>%
  cols_align(align = "right", columns = TRUE) %>%
  tab_header(title = md("Probabilidades preditas dos modelos por características socioeconômicas (Ciclo 1)")) %>%
  tab_source_note(source_note = "ENADE, 2009-2017. Elaboração própria") %>%
  tab_spanner(label = "Variáveis independentes", columns = vars("sexo", "edu", "cor")) %>%
  tab_spanner(label = "Áreas", columns = vars("Engenharias", "Bacharelados", "Direito", "Licenciaturas",
                                              "Medicina", "Tecnólogos")) %>%
  cols_label("sexo" = md("Gênero"), "edu" = md("Escolaridade dos Pais"),
             "cor" = md("Raça/cor")) %>%
  cols_align(align = "center") %>%
  tab_options(data_row.padding = px(2),
              row_group.padding = px(1),
              table.font.size = "small",
              heading.align = "center")

#Quadro dos Anexos 
pps2 %>%
  mutate(cor = case_when(
    cor == "Branca" ~ "Branca",
    cor == "Não-Branca" ~ "Negra")) %>%
  select(sexo,edu,cor,pred.prob.Engenharias,pred.prob.Bacharelados,
         pred.prob.Direito,pred.prob.Licenciaturas,pred.prob.Medicina,
         pred.prob.Tecnólogos) %>%
  rename("Engenharias" = pred.prob.Engenharias, "Bacharelados" = pred.prob.Bacharelados,
         "Direito" = pred.prob.Direito, "Licenciaturas" = pred.prob.Licenciaturas, "Medicina" = pred.prob.Medicina,
         "Tecnólogos" = pred.prob.Tecnólogos) %>%
  gt(rowname_col = "diploma") %>%
  tab_stubhead(label = "Variável") %>%
  cols_align(align = "right", columns = TRUE) %>%
  tab_header(title = md("Probabilidades preditas dos modelos por características socioeconômicas (Ciclo 2)")) %>%
  tab_source_note(source_note = "ENADE, 2009-2017. Elaboração própria") %>%
  tab_spanner(label = "Variáveis independentes", columns = vars("sexo", "edu", "cor")) %>%
  tab_spanner(label = "Áreas", columns = vars("Engenharias", "Bacharelados", "Direito", "Licenciaturas",
                                              "Medicina", "Tecnólogos")) %>%
  cols_label("sexo" = md("Gênero"), "edu" = md("Escolaridade dos Pais"),
             "cor" = md("Raça/cor")) %>%
  cols_align(align = "center") %>%
  tab_options(data_row.padding = px(2),
              row_group.padding = px(1),
              table.font.size = "small",
              heading.align = "center")

#Quadro dos Anexos 
ppslogit %>%
  gt(rowname_col = "area") %>%
  tab_stubhead(label = "Área") %>%
  cols_align(align = "right", columns = TRUE) %>%
  tab_header(title = md("Razão entre as probabilidades preditas de estar no setor privado por área")) %>%
  tab_source_note(source_note = "ENADE, 2009-2017. Elaboração própria") %>%
  tab_spanner(label = "Ciclo 1", columns = vars("MF1", "SM1", "BN1")) %>%
  tab_spanner(label = "Ciclo 2", columns = vars("MF2", "SM2", "BN2")) %>%
  cols_label("MF1" = md("Masculino/Feminino"), "SM1" = md("Escolaridade Superior/Média"),
             "BN1" = md("Branca/Negra")) %>%
  cols_label("MF2" = md("Masculino/Feminino"), "SM2" = md("Escolaridade Superior/Média"),
             "BN2" = md("Branca/Negra")) %>%
  cols_align(align = "center") %>%
  tab_options(data_row.padding = px(2),
              row_group.padding = px(1),
              table.font.size = "small",
              heading.align = "center")